{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "['花', '花开', '花', '花', '花']\n",
      "['花', '花开', '花', '花', '花']\n",
      "['花开']\n",
      "['年', '年', '年', '年', '年', '年', '年', '年']\n",
      "['年年', '年年', '年年']\n",
      "['年年年年', '年年']\n",
      "[]\n",
      "['年花落颜又改，明年花开复在在，年年年年花花花，前后年年人不同']\n",
      "['年花', '年花', '年年年年花', '年年人']\n",
      "['年花落颜又改，明年花开复在在，年年年年花花花']\n",
      "['年花', '年花', '年年花']\n"
     ]
    }
   ],
   "source": [
    "\n",
    "import re\n",
    "\n",
    "te = '今年花落颜又改，明年花开复在在，年年年年花花花，前后年年人不同'\n",
    "print(re.findall('花开?',te))\n",
    "print(re.findall('花开*',te))\n",
    "print(re.findall('花开+',te))\n",
    "print(re.findall('年{1}',te))\n",
    "print(re.findall('年{2}',te))\n",
    "print(re.findall('年{2,}',te))\n",
    "print(re.findall('年{1，2}',te))\n",
    "print(re.findall('年.+',te))\n",
    "print(re.findall('年+.',te))\n",
    "print(re.findall('年.+花',te))\n",
    "print(re.findall('年.?花',te))\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "语料库文件列表：\n",
      " ['书剑恩仇录.txt', '侠客行.txt', '倚天屠龙记.txt', '天龙八部.txt', '射雕英雄传.txt', '白马啸西风.txt', '碧血剑.txt', '神雕侠侣.txt', '笑傲江湖.txt', '越女剑.txt', '连城诀.txt', '雪山飞狐.txt', '飞狐外传.txt', '鸳鸯刀.txt', '鹿鼎记.txt']\n"
     ]
    }
   ],
   "source": [
    "import nltk,re\n",
    "from nltk.corpus import PlaintextCorpusReader\n",
    "corpus_root='data'\n",
    "filelist=PlaintextCorpusReader(corpus_root,'.*')\n",
    "print('语料库文件列表：\\n',filelist.fileids())"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "“书剑恩仇录.txt”的文本长度为517664,总词汇数量为127653,词表长度为3724\n",
      "“侠客行.txt”的文本长度为378883,总词汇数量为88671,词表长度为3243\n",
      "“倚天屠龙记.txt”的文本长度为979853,总词汇数量为229717,词表长度为3998\n",
      "“天龙八部.txt”的文本长度为1244776,总词汇数量为300230,词表长度为4305\n",
      "“射雕英雄传.txt”的文本长度为944612,总词汇数量为227499,词表长度为4451\n",
      "“白马啸西风.txt”的文本长度为76829,总词汇数量为17467,词表长度为2202\n",
      "“碧血剑.txt”的文本长度为494339,总词汇数量为119054,词表长度为3983\n",
      "“神雕侠侣.txt”的文本长度为986611,总词汇数量为242059,词表长度为3976\n",
      "“笑傲江湖.txt”的文本长度为992863,总词汇数量为240407,词表长度为3888\n",
      "“越女剑.txt”的文本长度为18280,总词汇数量为4223,词表长度为1436\n",
      "“连城诀.txt”的文本长度为239269,总词汇数量为57856,词表长度为3015\n",
      "“雪山飞狐.txt”的文本长度为137507,总词汇数量为32349,词表长度为2746\n",
      "“飞狐外传.txt”的文本长度为446376,总词汇数量为106784,词表长度为3488\n",
      "“鸳鸯刀.txt”的文本长度为39235,总词汇数量为9322,词表长度为1930\n",
      "“鹿鼎记.txt”的文本长度为1264121,总词汇数量为312088,词表长度为4282\n"
     ]
    }
   ],
   "source": [
    "for fileid in filelist.fileids():\n",
    "    raw=filelist.raw(fileid)\n",
    "    num_length=len(raw)\n",
    "    words=filelist.words(fileid)\n",
    "    num_words=len(words)\n",
    "    with open('data/'+fileid,'r',encoding='utf-8')as f:\n",
    "        text=f.read()\n",
    "        sets=set(text)\n",
    "        num_sets=len(sets)\n",
    "    print(\"“%s”的文本长度为%d,总词汇数量为%d,词表长度为%d\"%(fileid,num_length,num_words,num_sets))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "姿灵秀，意气殊高洁。万蕊参差谁信道，不与群芳同列。浩气清英，仙才卓荦，下土难分别。瑶台归去，洞天方看清绝。”<p1>\n",
      "　　作这一首《无俗念》词的，乃南宋末年一位武学名家，有道之士。此人姓丘，名处机，道号长春子，名列全真七子之一，是全真教中出类拔萃的人物。《词品》评论此词道：“长春，世之所谓仙人也，而词之清拔如此”。这首词诵的似是梨花，其实词中真意却是赞誉一位身穿白衣的美貌少女，说她“浑似姑射真人，天姿灵秀，意气殊高洁”，又说她“浩气清英，仙才卓荦”，“不与群芳同列”。词中所颂这美女，乃古墓派传人小龙女。她一生爱穿白衣，当真如风拂玉树，雪裹琼苞，兼之生性清冷，实当得起“冷浸溶溶月”的形容，以“无俗念”三字赠之，可说十分贴切。长春子丘处机和她在终南山上比邻而居，当年一见，便写下这首词来。<p2>\n",
      "　　这时丘处机逝世已久，小龙女也已嫁与神雕大侠杨过为妻。在河南少室山山道之上，却另有一个少女，正在低低念诵此词。这少女十八九岁年纪，身穿淡黄衣衫，骑着一头青驴，正沿山道缓缓而上，心中默想：“也只有龙姊姊这样的人物，才配得上他。”这一个“他”字，指的自然是神雕大侠杨过了。她也不拉缰绳，任由那青驴信步\n"
     ]
    }
   ],
   "source": [
    "with open('data/倚天屠龙记.txt','r',encoding='utf-8')as f:\n",
    "    text1=f.read()\n",
    "    print(text1[100:600])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "下土难分别瑶台归去洞天方看清绝作这一首无俗念词的乃南宋末年一位武学名家有道之士此人姓丘名处机道号长春子名列全真七子之一是全真教中出类拔萃的人物词品评论此词道长春世之所谓仙人也而词之清拔如此这首词诵的似是梨花其实词中真意却是赞誉一位身穿白衣的美貌少女说她浑似姑射真人天姿灵秀意气殊高洁又说她浩气清英仙才卓荦不与群芳同列词中所颂这美女乃古墓派传人小龙女她一生爱穿白衣当真如风拂玉树雪裹琼苞兼之生性清冷实当得起冷浸溶溶月的形容以无俗念三字赠之可说十分贴切长春子丘处机和她在终南山上比邻而居当年一见便写下这首词来这时丘处机逝世已久小龙女也已嫁与神雕大侠杨过为妻在河南少室山山道之上却另有一个少女正在低低念诵此词这少女十八九岁年纪身穿淡黄衣衫骑着一头青驴正沿山道缓缓而上心中默想也只有龙姊姊这样的人物才配得上他这一个他字指的自然是神雕大侠杨过了她也不拉缰绳任由那青驴信步而行一路上山过了良久她又低声吟道欢乐趣离别苦就中更有痴儿女君应有语渺万里层云千山暮雪只影向谁去她腰悬短剑脸上颇有风尘之色显是远游已久韶华如花正当喜乐无忧之年可是容色间却隐隐有懊闷意似是愁思袭人眉间心上无计回避这少女姓郭单名一个襄字乃大侠郭靖\n"
     ]
    }
   ],
   "source": [
    "ctext=re.sub('[\\[\\]\\s+\\.\\!\\/_,$%^*()+\\\"\\'?:&@#;<>=-]+|[a-zA-Z]+|[+\\~@￥#%……&*（）『』「」{}`•]+|[．！——《》，？“”‘’。；、：-]+|[0-9]+', '', text1)\n",
    "print(ctext[100:600])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.7.0"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}
